其 有 十 | 


Chinaxi 
第 39 卷 第 9 其 计算 机 应 用 研究 /合作 了 No 
录用 定稿 Application Research of Computers Accepted Paper 


多 基站 下 基于 DRL 的 RAN 切片 资源 分 配 


马 英 洪 ， 江 凌云 
(南京 邮电 大 学 通信 与 信息 工程 学 院 ， 南京 210003) 


摘 要 : 在 第 五 代 移 动 通信 中 ， 网 络 切 片 被 用 来 为 各 种 业务 提供 一 个 最 佳 的 网 络 。 针 对 多 基站 下 的 RAN 切片 场景， 
以 往 的 资源 分 配方 法 在 切片 的 数量 发 生变 化 时 无 法 满足 切片 的 需求 而 且 只 适用 于 特定 的 场景 ， 针 对 这 个 问题 ， 提 出 
了 一 种 实现 最 佳 资源 分 配 且 与 切片 数 无 关 的 方法 。 该 方法 先 利 用 Ape-X 方法 (一 种 DRL 方法 ) 将 资源 分 配给 切片 , 再 
经 过 切片 到 基站 的 资源 映射 和 用 户 资源 分 配 来 满足 用 户 的 需求 。 仿 真 结 果 表 明 ， 所 提出 的 方法 能 够 根据 切片 的 状态 
和 需求 分 配 资源 ， 分 配 了 必要 数量 的 RB 以 满足 切片 的 需求 而 且 不 受 切 片 数量 变化 的 影响 。 同 时 ， 该 方法 也 具有 很 
高 的 通用 性 能 和 扩展 性 

关键 词 ， 多 基站 ; 网 络 切片 深度 强化 学 习 ; 无 线 接 入 网 ; 资源 分 配 
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RAN slice resource allocation in multi base stations based on DRL 


Ma Yinghong, Jiang Lingyuni 
(College of Telecommunications & Information Engineering, Nanjing University of Posts & Telecommunication, Nanjing 
210003, China) 


Abstract: In the fifth generation mobile communication, network slicing is used to provide an optimal network for various 
services. For the RAN slice scenario under multi base stations, the previous resource allocation methods can not meet the 
demand of slices when the number of slices changes, and are only suitable for specific scenarios. To solve this problem, this 
paper proposes a method to achieve the best resource allocation independent of the number of slices. This method first uses 
Ape-X method (a DRL method) allocate resources to slices, and then meet the needs of users through the resource mapping 
from slices to base stations and user resource allocation. The simulation results show that the proposed method can allocate 
resources according to the state and demand of slices, allocate the necessary number of RBs to meet the demand of slices, and 
is not affected by the change of the number of slices. At the same time, this method also has high general performance and 
scalability. 

Key words: multi base station; network slice; deep reinforcement learning; radio access network; resource allocation 


引言 源 同 时 能 够 满足 切片 要 求 的 方法 G59。 

二 文献 [7~12] 是 几 种 在 单 基站 环境 下 的 无 线 资源 分 配方 法 。 
第 五 代 移动 通信 (5G) 网 络 作为 解决 日 益 增长 的 移动 数据 ”文献 [7] 中 的 方法 通过 从 没有 需求 的 切片 中 分 配 资源 来 满足 
通信 需求 的 解决 方案 引起 了 人 们 的 关注 .5G 改善 了 第 四 代 移 。 切片 的 需求 。 但 是 ， 没 有 评估 资源 分 配 的 利用 率 。 存 在 向 切 
动 通 信 (4G) 网 络 中 未 得 到 适当 解决 的 一 些 领 域 ， 例 如 更 高 的 。 ” 片 分 配 过 多 资源 的 可 能 性 。 文献 [8] 提 出 了 一 种 考虑 切片 需求 
数据 速率 、 更 低 的 端 到 端 (End to End, E2B) 延 迟 、 更 高 的 可 靠 。 和 资源 利用 率 的 方法 。 但 是 无 法 对 每 个 切片 实现 资源 隔离 ， 


S 


OO 


性 和 大 量 的 设备 连接 中。 此 外 ，5G 中 的 服务 类 型 也 越 来 越 多 会 受到 其 他 切片 的 负载 的 影响 。 在 文献 [9] 中 采用 了 一 种 最 早 
样 化 ， 例 如 需要 高 数据 速率 和 低 延 迟 的 虚拟 现实 (Virtual Reality, 截止 时 间 优 先 (Earliest Deadline First，EDF) 调 度 策略 用 于 无 
VR), 以 及 需要 大 量 设备 连接 和 低 延 迟 的 工厂 自动 化 外 ,传统 的 线 资源 分 配 , 可 以 使 得 在 高 负载 下 满足 切片 对 于 时 延 的 要 求 ， 
通信 网 络 主要 用 来 服务 单一 的 移动 宽带 业务 ， 无 法 适应 未 来 但 是 会 严重 影响 对 于 吞吐 量 有 需求 的 切片 的 性 能 。 文 献 [10] 
5G 多 样 化 的 业务 场景 。 因 此 , 为 了 在 同一 个 物理 网 络 基础 设 提出 了 一 种 在 C-RAN 场景 下 基于 在 线 学 习 的 网 络 切片 虚拟 
施 上 同时 支持 多 种 具有 不 同性 能 要 求 的 业务 场景 ， 满 足 多 样 资源 分 配 算法 ， 以 最 大 化 平均 网 络 切 片 和 速率 为 目标 ， 同 时 
化 的 业务 需求 ， 网 络 切片 技术 应 运 而 生 。5G 使 用 网 络 切片 考虑 到 了 平均 网 络 切片 约束 以 及 网 络 平均 回 传 链 路 带宽 消耗 
(network slice) 技 术 , 以 切片 为 单位 提供 适合 各 种 服务 的 网 络 Bl。 约束 。 但 是 没有 考虑 到 切片 的 资源 利用 率 。 在 文献 [11] 中 的 方 
切片 设置 了 吞吐 量 、 延 迟 和 可 人 靠 性 等 要 求 。 为 了 满足 这 些 需 法 ， 利 用 了 深度 强化 学 习 ， 同 时 考虑 到 了 切片 的 满意 度 和 资 
求 ， 网 络 资源 被 分 配 到 切片 上 。 网 络 切片 通常 包括 接 入 网 切 源 利用 率 ， 而 且 实现 了 切片 间 的 资源 隔离 。 但 是 ， 仅 评估 了 
片 (包括 无 线 接 入 和 固定 接 入 ) 和 核心 网 切片 由 。 其 中 , 无 线 接 特定 的 场景 。5G 中 假设 了 各 种 服务 场景 ， 文 献 [11] 中 的 方法 
入 网 (Radio Access Network，RAN) 必 须要 面 对 资 源 短缺 的 问 可 能 并 不 适用 。 文 献 [12] 提 出 了 一 种 基于 在 线 双 向 拍卖 的 网 

。 而 且 ， 在 实际 分 配 无 线 资源 的 时 候 ， 切 片 的 状态 会 不 断 络 切片 资源 调度 机 制 。 该 机 制 能 够 在 为 高 优先 级 切片 服务 的 
变化 ， 比 如 切片 中 的 用 户 数 量 、 业 务 的 到 达 率 以 及 用 户 的 分 同时 可 以 保证 低 优先 级 切片 用 户 的 QoS 需求 。 但 是 没有 考虑 
布 等 。 因 此 ， 需 要 一 种 能 够 根据 切片 状态 有 效 地 分 配 无 线 资 到 切片 间 的 资源 隔离 问题 。 
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录用 定稿 


以 上 的 文献 和 


在 多 基站 环境 下 的 分 配 情况 会 
基站 环境 下 的 资源 分 配方 法 。 在 文献 [13] 中 ， 
混合 业务 的 动态 网 络 切片 策略 ， 


考虑 


马 英 洪 ， 等 : 多 基站 下 基于 DRL 的 RAN 切片 资源 分 配 


究 的 都 是 在 单 基 站 下 的 无 线 资 源 分 配方 法 ， 
不 同 。 文献 [13~15] 是 几 种 在 多 


研究 了 RAN 中 


到 了 


j 户 对 时 延 和 速率 


的 QoS 需求 。 但 是 对 切 


"数量 的 设置 


的 算法 考虑 到 


了 基站 的 回 传 容量 ， 对 


和 数据 速率 的 需求 也 满足 的 很 好 。 但 


源 的 利用 率 不 高 。 文 献 [ 


活 。 文 献 [14] 中 


15] 设 计 并 实 


化 基板 (Network Virtualization Substrate， 


中 切片 在 各 个 基站 上 均匀 分 配 资源 ， 可 


团 片 的 
氏 负 载 的 ' 
钢 了 一 个 两 层 网 络 虚拟 
NVS) 算 法 ， 基 于 切 
片 的 优先 级 和 可 实现 速率 实现 切片 的 资源 调度 。 在 这 种 方法 


户 的 时 延 
青 况 下 资 


上 分 配 资源 过 多 ， 在 有 的 基站 上 分 配 过 少 。 
满意 度 和 资源 利用 率 不 够 好 。 
针对 上 述 文献 中 的 问题 ， 本 文 提出 了 


能 会 导致 在 有 的 基站 


从 而 导致 用 户 的 


种 在 多 基站 环境 


下 使 用 DRL 分 配 满足 切片 要 求 的 无 线 资源 的 方法 。 而 且 , 即 


使 切片 的 数量 发 生 


资源 以 满足 用 户 的 QoS 需求 。 


1 ”系统 模型 


1.1 网 络 模 型 


本 文 考虑 5G 其 站， 


keK, K 


变化 ， 所 提出 的 方法 也 能 为 各 个 切片 分 配 


三 | 
全 


个 基站 集 。 


基站 为 


切片 s 提供 服务 ，ses ,5 是 切片 集 。 为 了 满足 用 户 的 服务 质 


度 为 lms。TTI 是 调度 RB 


配给 用 户 。 


量 (Quality of Service，QoS) 需 求 ， 必 须 在 切片 之 间 分 配 无 线 
资源 。 在 5G 系统 中 , 无 线 资源 月 
来 表示 。RB 是 基于 时 域 和 频 
12 个 子 载波 组 成 ， 每 个 子 载波 的 间隔 为 15kHz。 
时 间 间 隔 (Transmission Time Interval, TITD 为 单位 ，TTI 的 长 
的 最 小 单位 , 在 每 个 TTI 将 RB 分 


资源 块 (Resource Block, RB) 
或 划分 的 资源 单位 。 一 个 RB 


时 域 以 传输 


基站 将 RB 分 配给 用 户 以 满足 
一 个 RB 上 的 可 实现 速率 计算 为 : %=Pow0+ 


户 的 需求 ， 用 户 在 


Pr Ben 


5。 其 中 , B 表 


示 一 个 RB 的 带宽 ， 即 15kHzx12=180kHz。px 表 示 基 站 上 的 


发 射 功率 ， gi 表示 用 户 


No 表示 噪声 功率 谱 密度 。 
因此 ， 用 户 按照 不 同 基站 上 


岗 速 率 不 同 ， 


u 在 基站 一 个 RB 上 的 信道 增益 ， 


] 户 wu 在 不 同 卉 


< 


大 到 小 设立 等 级 , 用 


基站 对 用 户 w 的 重要 性 。 


不 同 切 片 的 
为 两 种 : 吞吐 量 需 求 和 


在 每 个 TTI 为 其 分 配 RB; 对 于 有 时 延 


站 上 的 RB 的 可 实 
RB 的 可 实现 速率 
户 & 对 基站 大 的 等 级 记 为 &.， 可 表示 


时 延 需求 。 对 于 需要 


户 的 QoS 需求 不 同 , 在 本 文中 ,将 需求 分 
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表示 消耗 的 RB 数量 , ARB 表示 分 配给 切片 的 RB 数量 。RBUR 
越 接近 1，RB 的 利用 率 就 越 高 ， 资 源 利用 率 就 越 高 。 
当 NSDS 很 低 而 RBUR 很 高 时 ,分 配给 切片 的 RB 都 被 
消耗 掉 ， 切 片 中 有 的 用 户 没有 满足 切片 的 需求 。 因 此 ， 给 书 
片 分 配 更 多 的 RB 可 以 改善 NSDS。 通 过 最 大 化 NSDS 和 
RBUR， 可 以 实现 以 最 少 的 RB 数量 满足 切片 的 需求 。 
1.2 ”问题 模型 

RB 分 配 问 题 可 以 分 成 两 步 : 切片 间 资 源 分 配 和 切片 内 
资源 分 配 。 切 片 间 资源 分 配 问题 包括 分 配 RB 给 切片 和 切片 
到 基站 的 资源 映射 。 切 片 间 资源 分 配 问题 建 模 如 下 : 


5 
max 》 NSDS, x RBUR, 
i=l 
5 
s1.: >》 ARB, < AlIRB 
i=] 


5 
DR Sh,vkek 
让 1 


标 是 最 大 化 切片 的 资源 利用 率 RBUR 和 切片 满意 度 
NSDS 的 乘积 ， 以 最 小 的 RB 分 配 满足 切片 需求 。 式 (2) 中 第 
一 个 约束 表示 所 有 切片 所 分 配 的 RB 数量 不 能 超过 基站 所 拥 
有 的 RB 总 数 。 第 二 个 约束 表示 在 每 个 基站 下 ， 所 有 切片 获 
得 的 RB 的 总 数量 不 能 超过 该 基站 所 拥有 的 RB 数量 。 
在 确定 了 切片 在 每 个 基站 上 的 资源 分 布 后 ， 网 络 切片 控 
制 器 执行 切片 内 资源 分 配 。 切 片 中 的 用 户 优先 接 入 RB 等 级 
最 高 的 基站 ， 这 样 可 以 最 大 化 满足 用 户 的 QoS 需求 。 在 基站 
大 | 
题 


， 设 定 分 配给 切片 s 的 RB 集 为 Mst， 切片 内 资源 分 配 问 
题 建 模 如 下 : 


max{Us},VseS 
sl: > ,aluwn) <R,. 
TEAM1 x ueUs x 


> a(u,n) <1,vn=1,...R,. 
在 式 (3) 中 ，A 是 分 配 和 矩阵 ， 如 果 将 第 n 个 RB 分 配给 第 
u 个 用 户 ， 则 元 素 a(w,n) 为 1， 否则 为 0。Usxt 表示 第 s 个 切片 
在 第 个 基站 上 的 效用 , 本 文 考虑 g-wiliy 09, 如 式 (4) 所 示 。 


(2 


G3) 


i-w 
AAC 


2 (4) 
UEDA log(>,wv， a(u, nt,),0 =1 
本 文选 择 a=1， 即 比例 公平 方式 。 在 式 (3) 中 ， 第 一 个 约 


到 达 时 分 配 RB。 假 设 
对 数据 速率 的 需求 。 


据 包 大 小 为 p,。 因 此 ， 


TTI 是 最 小 的 时 间 调 度 单位 ， 因 此 ， 
Ru 需要 转换 成 lms 上 的 速率 需求 。 


设 为 用 户 的 QoS 需求 , 同 


network slice demand sat 


人 


切片 内 的 月 


， 每 个 切片 内 的 用 户 分 配 的 RB 的 总 数 不 
第 三 个 约束 确保 一 个 RB 只 能 分 


用 户 w 对 数据 速率 的 需求 <- 吧 。 由 于 
用 户 xz 的 数据 速率 需求 
此 外 ， 本 文 将 切片 的 需求 
有 户 的 QoS 需求 相同 。 
本 文 定义 了 两 个 指标 :网 络 切片 需求 满意 度 (NSDS， 


isfaction) 和 RB 利用 率 (RBUR, RB 


Usage rati0)。 


第 一 个 指标 NSDS | 


来 衡量 
业务 的 需求 。NSDS 表示 为 NSDS = Ea 


网 络 是 否 满足 了 该 


。 表示 切片 $s 


中 的 用 户 数 量 。 


ut 表示 用 户 是 


a 
“一 to， 未 满足 切片 需求 


NSDS 越 接近 1， 就 


说 明 切 片 中 月 


越 好 ， 就 可 以 为 服务 提供 
衡量 资源 利用 率 的 指标 ，RBUR 表示 为 BCR=%AZARa 。 


更 合适 的 切 


FL 
Ts 


否 满足 ] 1 


(1) 


有 户 的 QoS 需求 满足 的 
RBUR 是 一 个 用 来 


URB 


高 吞吐 量 的 用 户 束 表 示 在 基站 
正 需 求 的 用 户 在 数据 包 能 超过 该 切片 可 用 的 资源 。 
户 wu 对 吞吐 量 的 需求 为 RB,， 也 就 是 配给 一 个 用 户 。 
用 户 w 对 时 延 的 需求 为 T,， 用 户 w 的 数 


2 ”算法 设计 
方法 概述 
在 RAN 切片 中 , 需要 一 种 以 最 小 RB 分 配 满足 切片 需求 
的 方法 ， 该 方法 与 切片 数量 无 关 。 因 此 ， 本 文 提出 了 一 种 利 
用 Ape-X07 的 灵活 RB 分 配方 法 。 由 于 使 用 了 Ape-X, learner 
学 习 的 模型 包括 基于 每 个 actor 收集 的 各 种 经 验 。 因此 ,， 当 切 
片 数量 变化 时 无 须 重 新 训练 模型 即 可 进行 RB 分 配 。 在 现 有 
方法 中 ,agent 控制 的 切片 数量 是 固定 的 , 因此 如 果 训 练 和 评 
佑 之 间 的 切片 数量 不 同 ， 则 需要 重新 训练 模型 。 在 所 提出 的 
方法 中 ， 一 个 agent 将 RB 分 配给 一 个 切片 ， 当 有 多 个 切片 
时 ，agent 会 被 多 次 调用 。 这 种 设计 实现 了 与 切片 数 
的 RB 分 配 。 在 每 次 RB 分 配 后 ， 网 络 切片 控制 器 会 
片 在 每 个 基站 上 的 资源 配置 ， 
此 外 ， 代 笃 学 习 以 最 少 所 需 的 RB 数量 


2.1 


前 
以 便 BS 可 以 在 每 个 调度 时 期 


分 配 来 满足 切片 
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的 需求 ， 从 十 
利 
片 中 的 
终 


Fig. 1 


所 提出 的 方法 采用 


DRL。 其 中 ， 
化 时 ，actor 


最 大 化 满足 需求 的 切片 数量 , 同时 提高 RB 的 
效率 。 在 本 文中 ， 为 每 种 服务 类 型 定义 一 个 切片 。 当 切 
] 户 数 变 为 1 或 更 多 时 生成 切片 ， 在 用 
F 切 片 。 所 提出 的 算法 的 流程 图 如 图 1 所 示 。 


户 数 变 为 0 时 


开始 


里 


启动 切片 


Dh 


村 
切片 到 基站 的 资源 映 
射 


这 
利用 比例 公平 方式 分 
配 资源 给 用 户 


图 1 


所 提 


出 的 算法 的 流程 图 


Flow chart of the proposed method 


2.2 利用 Ape-X 的 RB 分 配 


状态 是 代 


里 确定 动作 的 重要 因素 。 如 果 状 态 被 设计 为 尽 


可 能 地 消除 不 确定 元 素 ， 则 学 习 结果 会 更 好 。 基 于 这 一 点 ， 


本 文 将 学 习 RB 
这 三 种 类 型 分 别 是 NSDS 相关 、RBUR 相关 和 切片 状态 。 首 
先 , NSDS 相关 , 对 于 


分 配 时 的 状态 分 为 表 1 中 给 出 的 三 种 类 型 。 


民 理 识别 切片 的 需求 很 重要 。 第 二 个 ， 


RBUR 相关 ， 帮 助 代理 识别 切片 的 RB 分 配 情况 。 第 三 个 是 
为 了 解决 状态 的 模糊 性 。 
表 1 RB 分 配 的 状态 设计 
Tab. 1 State design of RB allocation 
状态 类 型 值 
NSDS 
NSDS 相关 吞吐 量 需 求 
时 延 需求 
RBUR 相关 RBUR 
分 配 RB 的 数量 
到 达 数 据 包 的 数量 
切片 状态 传输 数据 包 的 数量 
缓冲 区 中 数据 包 的 数量 
动作 是 代理 对 环境 执行 的 控制 。 所 提出 的 方法 为 每 个 切 


片 分 配 RB。 


actor 输出 的 动作 记 为 a,，a 可 以 为 负 ，0 或 


Ape-X 方法 ， 将 分 布 式 学 习 应 用 于 


一 个 actor 控制 一 个 切片 ， 当 切片 的 数量 发 生变 


RB 不 依赖 于 切片 的 数量 。 


数量 和 分 配 RB。learner 学 习 一 种 策略 ， 该 策略 以 最 少 
片 的 需求 。 分 丁 


数量 满足 切 


片 数量 没有 限制 ， 所 以 有 1 
用 户 。 除 了 管理 切片 之 外 ， 


actor。actor 是 Ape-X 代 


使 
略 。 


了 learner 训练 的 策略 
在 每 个 资源 调度 时 期 ， 
每 个 切片 的 状态 信息 , 包括 切片 中 的 
求 以 及 切片 的 资源 利 月 
知 给 网 络 切片 控制 器 。 网 


随 之 变化 ,切片 的 数量 没有 限制 分配 


所 提出 的 方法 可 以 灵活 设置 切片 
的 RB 
方法 的 架构 如 图 2 所 示 。 由 于 切 
到 N 个 切片 ， 每 个 切片 包含 多 个 
网 络 切片 控制 器 还 桥接 了 基站 和 


态 和 奖励 ， 


将 其 


把 动作 输出 到 网 络 切 片 控 制 器 。 当 网 络 切 片 控制 器 
它 会 计算 分 配给 它们 的 RB 数量 。 


成 动作 ， 
接收 到 每 个 切片 的 动作 时 ， 
在 学 习 过 程 中 ， 奖 励 、; 


(replay memory)。 在 切片 级 资源 更 新 
3 节 介 绍 了 基站 资源 更 新 的 算法 流程 。 在 进行 基 
站 级 资源 更 新 后 ， 网 络 切片 控 于 
上 的 资源 分 布 。 各 个 基站 为 每 个 切片 中 的 用 


有 基站 上 。2. 


日 率 等 信息 。 
络 切 片 控制 器 根 
传递 给 切片 对 应 的 actor。 actor 根据 策 


天 态 和 动作 作为 经 验 传递 给 回放 记忆 


， 和 切片 的 数量 相同 。 由 于 actor 
， 所 有 actor 都 具有 相同 的 控制 策 
执行 RB 的 分 配 操作 。 基 站 收集 
j 户 是 否 满 足 了 QoS 需 
随后 ， 基 站 将 切片 状态 通 
切片 状态 生成 状 
各 生 


后 ， 资 源 需 要 映射 到 所 


Le 


器 通知 各 基站 每 个 切片 在 其 
户 分 配 RB， 以 满 


Replay memory 
riences 


2: 2 

网 更 新 优先 级 | 
络 a 

全 ee a 

. 了 


络 切 片 控制 器 | 
lu 
切片 N 
EE 
分 配方 法 的 架构 


Fig.2 Architecture of RB allocation method 


深度 强化 学 习 解 决 切片 间 资 源 分 配 问 题 ， 作 出 


足 用 户 的 吞吐 量 和 时 延 需求 。 
| 人 
从 网 
:下 
] 
切片 1 切片 2 
Cor (加 《四 
图 2 RB 
本 文 利 ) 
最 优 决策 ,在 下 面 详细 介绍 


强化 学 习 架 构 中 各 个 要 素 的 内 容 。 


E。a 为 负 表 示 分 配给 切片 的 RB 数量 减少 , a 为 0 表示 分 配 
给 切片 的 RB 数量 不 变 , a 为 正 表示 分 配给 切片 的 RB 数量 增 
,动作 a 的 取 值 范 目 
和 a 为 九 个 维度 。 在 ttl 时 刻 ， 分 配给 切片 的 RB 数量 可 
计算 为 4RB =ARB x(+a)。 计 算出 的 ARB 不 考虑 分 配给 
也 切片 的 RB。 然 而 ， 
给 切片 的 RB 总 数 可 能 会 超过 基站 的 所 有 RB。 
空 制 器 根据 算法 1 调整 分 配给 每 个 切片 的 RB 数量 。 对 每 


为 [-0.8,-0.6,-0.4,-0.2,0,0.2,0.4,0.6,0.8]， 


att 


于 基站 具有 有 限 数 量 的 RB, 分配 


因此 , 网 络 切 


个 切片 计算 时 间 t 处 分 配 的 RB 数 和 NSDS 的 乘积 ， 按 照 从 


小 到 大 的 顺序 进行 排列 。j 
使 得 需要 较 少 RB 的 切片 或 具有 较 小 NSDS 的 切片 在 时 间 寻 1 


按照 这 个 次 序 为 切片 分 配 资源 。 这 


时 优先 分 配 。 这 样 可 以 避免 需要 更 多 RB 的 切片 占用 多 余 的 
资源 , 提高 了 资源 利用 率 。 另 一 方面 ,可 以 改善 切片 的 NSDS。 


奖励 向 代 


里 表明 一 个 动作 对 于 一 个 状态 是 好 是 坏 。 在 所 


提出 的 算法 中 ， 


标 是 以 最 少 的 RB 分 配 满足 切片 的 需求， 


最 大 化 NSDS 和 RBUR 是 学 习 的 目标 。 奖 励 r 被 设计 为 


ARB 是 分 


的 数据 包 的 数量 。 当 缓冲 区 为 空 时 , 不 需要 分 配 RB， 因此 如 


果 ARB 为 0， 


1,(ARB =0, Buff =0) 
0,(ARB =0, Buff > 0) 

"|0,CARB > 0, Buff =0) (5) 
NSRS x RBUR, (ARB > 0, Buff > 0) 


配给 切片 的 RB 数量 , Buff 是 存储 在 缓冲 区 中 


则 7 为 1; ARB 不 为 0, r 为 0。 当 缓冲 区 有 数 


据 包 而 ARB 为 0， 即 切片 有 需求 但 没有 被 分 配 RB，7 为 0。 


当 数 据 包 存储 在 缓冲 区 中 


ARB 不 为 0 时 ，NSDS 和 


RBUR 会 随 着 分 配 的 ARB 而 变化 。 因 此 , r 是 根据 NSDS 
和 RBUR 计算 得 出 的 。 
DQN 的 框架 如 图 3 


所 示 ， 其 中 包含 两 个 神经 网 络 ， 


Q(s,4a;0) 


代表 预测 Q 网 络 , 9 表示 预测 字 
评估 当前 状态 -动作 对 的 价值 ，Q(s,a;0) 


经 网 络 的 参数 , 用 于 
愉 表 目标 Q 网 络 ， 用 


于 计算 目标 值 ， 


计算 为 : ZL@)=H(y, Qs,4;))] ，3=mm+YmaxQGww4;0)。 yy 是 目 
标 值 ，»y 一 Q(s,a;9) 即 为 TD(Temporal Difference) 误 差 5 。 利 用 


标 神经 网 络 的 参数 。 损 失 函 数 L(0) 


bx 表示 


损失 函数 计算 梯度 。 计 算 表 达 式 为 


本 文 使 用 


aL(0) _ oF[(y, ~ O(s,,0,:0))] 
00 00 (6) 


RMSProp 优化 算法 更 新 网 络 参数 ， 每 经 过 M 


步 迭 代 ， 复 制 预测 网 络 的 参数 9 给 目标 网 络 参数 gx。 
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标 (multi 
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预测 网 络 选择 动作 ， 目 标 
了 多 步 引 
step bootstrap target)09]， 即 考虑 多 步 的 奖励 ， 使 


用 了 DDQND5， 利 ) 


学 习 的 效果 更 好 。 姑 此 ， 目 标 值 y 变 为 


于 采用 了 决斗 网 络 P9， 


儿 三 7 十 N12 tt yh 
+]O(CargmaxOG GO)0 ) 
aeA 


(7) 


Q(s,,4;9) 被 划分 为 状态 价值 函 


数 VGs;9) 和 优势 函数 Adv(s,,4;0) 。 状 态 价值 函数 仅 和 状态 s, 有 


关 , 与 动作 a 
Q 值 表示 如 


Q(si,41;0) =V(s,;0)+(Adv(s,,a;0)— 


无 关 。, 优 势 函数 同时 和 状态 st 和 动作 a: 都 有 关 。 


A, ,a:0)) (8) 


其 中 ，A 表示 动作 集 ， 


IAI 是 动作 集 的 维度 。 


actor 与 环境 交互 


产生 经 验 (5,a,7,s) 。 本 文采 用 g-greedy 策略 ，actor 以 ge 的 概率 
选择 动作 值 最 高 的 动作 ， 以 概率 1-s 选 择 随 机 动作 。actor 根 


据 其 网 络 参数 计算 经 验 的 TD 误差， 根据 TD 误差 设置 经 验 


的 优先 级 px， 


Pi |,，k 是 经 验 的 编号 。 经 验 (5,a,7,s,pi) 被 


存 入 经 验 回放 中 ， 
， 从 经 验 回 放 中 提取 经 验 。 经 验 的 采样 概率 为 稚 ,， 


随机 采样 


预测 网 络 和 目标 网 络 使 


优先 级 采样 代替 


每 次 抽取 batch 个 样本 。 
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算法 1 切片 的 RB 分 配 
输入 : CRB 是 在 t+1 时 刻 计算 出 的 分 配给 切片 s 的 RB 数 ，ARB; 
是 在 tt 时 刻 分 配给 切片 s 的 RB 数 ，NSRS: 是 切片 s 的 网 络 切片 需求 
满意 度 ，S 是 切片 集 ，ALLRB 是 所 有 基站 所 拥有 的 全 部 资源 。 
输出 : ARB;, 是 在 t+1 时 刻 分 配给 切片 s 的 RB 数 。 
1) 开 始 : 
2)for sesS 
3) WwW[s] = ARB; xNSRS: 
4)end for 
5)remainRB=AlIRB 
6)for sseS# 按 照 W 的 升序 提取 s 
7) if CRB;, <remainRB 


8) ARB», = CRB, ; 

9) remainRB = remainRB - ARB;, 
10) else 

11) ARB:| = remainRB 

12) remainRB =0 

13) end if 

14)end for 

15) 结 5 


2.3 切片 到 基站 的 资源 映射 


在 更 新 网 络 参数 后 ， 计 算 batch 个 样本 的 TD 误差 和 优先 2.3.1 基站 资源 更 新 
级 , 然后 更 新 经 验 回放 中 这 些 样本 的 优先 级 。 随 着 学 习 的 进行 ， 在 切片 资源 更 新 后 ， 资 源 必须 映射 到 所 有 基站 上 。 算 法 
动作 值 被 更 新 ， 旧 经 验 的 准确 性 降低 ， 存 储 在 经 验 回放 中 的 旧 ”2 描述 了 基站 资源 更 新 过 程 。 基 站 资源 更 新 依赖 于 基站 对 特 
经 验 的 优先 级 被 更 新 为 低 。 当 经 验 回放 被 装 满 时 , 删除 旧 经 验 。 ”” 定 切片 的 权重 。 切片 中 的 用 户 在 不 同 基站 上 的 RB 等 级 5 不 
每 隔 N 步 ，actor 从 预测 网 络 处 复制 经 过 训练 的 参数 , 以 。，” 同 ， 可 以 得 到 切片 * 在 基站 大 上 的 等 级 :六 -Za sweu 。 因 
将 其 参数 更 新 为 最 新 版 本 。 这样, 通过 优先 学 习 具 有 较 大 TD 网 人 
误差 的 经 验 ， 同 时 执行 分 布 式 学 习 来 加 速 学 习 ， 从 而 提高 了 此 ” 久 片 ， 在 茜 站 上 的 权重 可 以 表示 为 ，“" 允 , 吉 ， 权 
学 习 效 率 。 重 r_rans 表 示 了 基站 对 切片 的 重要 性 ,在 每 个 调度 时 间 ， 
/ \ 这 些 权重 都 会 更 新 ， 以 更 新 基站 资源 。 切 片 在 基站 上 占 
0 有 的 资源 计算 为 : B=ARB, xr_rans 。 计 算出 的 ,没有 考虑 到 
ee ce | fre 每 个 基站 的 容量 限制 ， 所 有 切片 在 基站 上 分 配 的 RB 总 数 
可 能 会 超出 基站 的 容量 。 因 此 ， 需 要 调整 切片 在 每 个 基站 
actor + 入 本 和 预测 网 络 /一 入 网 y 几 。 目 标 网 络 0 上 所 分 配 的 资源 。 遍 历 所 有 基站 ， 将 分 配 资 源 量 超出 基站 容 
量 的 基站 添加 进 待 重新 分 配 队 列 Q_BS。 
ss | | 对 于 属于 Q_BS 队列 的 基站 k， 先 确定 属于 该 基站 的 
一 用 户 。 根 据 用 户 的 RB 等 级 得 到 切片 s 在 基站 上 的 用 户 集 
合 wu ，k=maxlau(DO ， 用 户 优先 选 择 RB 等 级 最 高 的 基 
ee 站 接 入 。 切片。 在 基站 上 上 的 速率 需求 为 ，W; -MR ，R 
图 4 显示 了 所 提出 方法 的 神经 网 络 结构 。 该 网 络 结构 有 ”” 表示 用 户 u 的 需求 速率 。 因 此 ， 切 片 s 在 基站 大 上 的 权重 可 
一 个 输入 层 、 几 个 隐藏 层 和 一 个 输出 层 。 因 为 状态 维度 被 设 jx | 
入 全 王 是 J 的 m i 己 旨 A 给 。 。 以 计生 汶 。 Woy 直线 们 到; 在 妆 抽 让 下 办 醒 冶 漳 上 
和 动作 维度 相同 。 隐 藏 层 有 128 个 神经 元 。 第 4 个 隐藏 层 分 。 ;的 RB 数 为 ，Rs=Lx@，，Li 为 基站 所 拥有 的 RB 总 数 。 
支 到 状态 值 和 优势 函数 。 使 用 这 些 规格 进行 了 2x105 步 训练 。 在 对 基站 的 资源 进行 重新 分 配 后 ， 有 的 切片 分 配 的 资源 
训练 大 约 需 要 2 天 。 总 数 可 能 会 低 于 ARB， 需 要 将 基站 剩余 的 资源 分 配给 切片 。 
i 首先 检查 每 个 基站 的 剩余 资源 量 以 及 分 配 资源 不 够 的 切片 。 
还 有 剩余 资源 的 基站 队列 设 为 Q_reBS, 分 配 RB 数 不 够 的 切 
ER ies) 片 队列 设 为 Q_slice。 遍 历 基 站 队列 Q_reBS， 比 较 切片 队列 
i Q_slice 中 的 所 有 切片 在 该 基站 上 的 权重 w, ， 按 照 权 重 由 大 
到 小 的 次 序 ， 将 基站 的 剩余 RB 资源 分 配给 切片 直到 满足 切 


v 
全 连接 层 (128units) 


全 连接 层 (128units) 


全 连接 层 


全 连接 层 (lunits) 


(9units) 


输出 层 (9units) 


图 4 神经 网 络 结构 


Fig.4 Neural network structure 


片 


的 RB 需求 或 基站 的 资源 全 部 被 分 配 。 
算法 2 基站 资源 更 新 
输入 : 分 配给 切片 s 的 RB 数 ARB: ， 切 片 s 在 基站 k 上 的 等 级 天 ， 
户 u 的 请 求 速率 Ru, 切片 集 5, 基站 集 K, 切片 缺少 的 RB 数 reRB， 

车 站 R 的 RB 容量 L#:， 基 站 k 剩余 的 RB 资源 LkR_remain， 待 重新 分 
配 切 片 队列 Q_slice， 有 剩余 资源 的 基站 队列 Q_reBS， 在 t+1 时 刻 
分 配给 切片 s 的 RB 数 ARB;, 。 
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输出 : Rx 是 基站 AR 分 配给 切片 s 的 RB 数 。 
1) 开 始 : 初始 化 Q_slice，Q _reBS 队列 
2)Step1: 初步 资源 映射 
3)for sesS 
4) forkeKk 
5) R,, = ARB: x Tt 
pk 
6) end 
7)end 
8)forkeKk 
9) BS_exceedt=D" R.,; 


16) ifBS_exceed* >L 
11) forses 
12) 获取 一 个 用 户 集 Us,k， 上 =max{O,4(K)} 
13) Wa = DR ; 

Fx XW 
Tr 
15) R= Xo; 
16) end 
17) end 
18) if BS_exceed* < 到 
19) L. oman = Le —BS_exceed* ; 
20) QO _reBS.add(f); 
21) end 
22) end 
23)Step2: 基站 剩余 资源 分 配 
24)for se9 
25) SUMRB’ = Ru ; 
26) if sumRB: < ARB: 
27) reRB: = ARB: — sumRB: ; 
28) Q slice.add(s); 
29) end 
30)end 


31)for keQ_reBS 


32) 按照 切片 s， 在 基站 k 上 的 权重 @,x 由 大 到 小 进行 排序 ， 得 
到 Rank 

33) if len(QO slice)==0 

34) break; 

35) end 

36) for s e Rank 

37) if Ly yman > reRB: 

38) reRB’=0; 

39) Q slice.delete(s); 

46) Li. omain = Lx romain —TERB’ ; 
41) else 

42) reRB: = reRB: —L i 
43) end 

44) if Tx ,oan —0 

45) Q_reBS.delete( 月 ; 

46) break; 

47) end 

48) end 

49)end 


2.3.2 用 户 资源 分 配 和 连接 控制 
为 了 解决 切片 内 资源 分 配 的 问题 ， 本 文 提出 了 一 个 迭代 
的 解决 方案 。 分 配 矩 阵 A 最 开始 为 空 ， 然 后 通过 和 欠 代 将 RB 
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分 配给 用 户 。 在 这 里 定义 个 增益 因子 : 
go0=logRO+riD-logRo) ”。 外 表示 用 户 已 分 配 的 速率 ，%i 


表示 | 


] 户 wu 在 有 上 的 可 实现 速率 ， 间 是 还 未 分 配 的 RB。 如 果 


用 户 具有 最 大 的 增益 因子 而 


且 该 用 户 的 数据 速率 需求 还 未 


得 到 满足 ， 则 将 记分 配给 该 用 


户 。 然 后 进入 下 一 次 迭代 ， 当 


停止 。 
当 所 有 基站 下 的 所 有 切片 
是 否 所 有 用 户 都 满足 了 需求 以 


所 有 的 RB 被 分 配 完成 或 者 所 有 用 户 的 需求 都 被 满足 时 ， 碗 


的 迭代 分 配 过 程 完 成 后 ， 检 查 
及 切片 的 资源 是 否 都 被 利用 了 。 


姑 为 可 能 接 入 一 个 基站 的 用 户 
其 他 基站 的 用 户 少 而 分 配 的 资 
资源 以 及 满足 用 户 需 求 ， 将 切 
未 满足 需求 的 / 


j 户 。 对 于 未 满足 需求 的 用 户 ， 


过 多 而 分 配 的 资源 不 够 ， 接 入 
源 很 多 。 因 此 ， 为 了 充分 利用 
片 在 其 他 基站 上 的 资源 分 配给 
按照 RB 等 级 次 


序 , 检查 其 他 基站 是 否 有 剩余 的 RB 资源 , 如 果 有 ， 就 将 用 户 连 
接 到 下 一 个 基站 ,根据 比例 公平 方式 迭代 将 该 基站 剩余 的 RB 资 


源 分 配给 重新 接 入 该 基站 的 用 户 们 ， 


直到 切片 中 的 用 户 都 满足 


了 需求 或 分 配给 切片 的 资源 全 部 被 利用 就 停止 迭代 。 


3 ”仿真 结 
3.1 仿真 概述 


所 提出 的 方法 是 根据 它 是 否 达 到 满足 切片 需求 的 最 小 
RB 分 配 来 评估 的 , 而 且 不 受 切片 数量 变化 的 影响 。 在 所 提出 


的 方法 中 ,必须 首先 训练 RB 
练 的 模型 评估 所 提出 的 方法 。 


分 配 的 模型 。 然 后 使 用 经 过 训 
评估 分 为 三 种 。 第 一 种 表明 所 


提出 的 方法 在 所 创建 的 特定 场景 中 适当 地 实现 了 RB 分 配 。 


第 二 种 展示 了 基于 随机 生成 的 
在 第 三 种 类 型 中 ， 本 文 评估 切 


描述 了 所 提出 方法 的 可 扩展 性 。 


3.2 训练 


所 提出 方法 中 的 模型 从 切 


RBUR 的 RB 分 配 。 在 5G 中 ， 


此 ， 仿 真 场景 是 随机 生成 的 ， 


多 个 场景 评估 模型 的 通用 性 能 。 
片 数量 与 性 能 之 间 的 关系 ， 并 


片 状态 中 学 习 最 大 化 NSDS 和 
假设 了 各 种 类 型 的 服务 。 因 
模型 使 用 各 种 类 型 的 服务 进行 


训练 。 表 2 给 出 了 用 于 训练 的 
评估 的 共同 参数 。 每 次 仿真 后 


场景 。 表 3 给 出 了 用 于 训练 和 
都 会 生成 一 个 新 场景 。 切 片 的 


数量 固定 为 三 个 切片 ， 但 在 仿 


过 程 中 ， 切 片 的 数量 从 0 到 


3 不 等 ， 因 为 切片 的 开始 和 结 
的 用 户 数 量 、 数 据 包 生成 间隔 
需求 为 吞吐 量 需求 

(Long Term Evolution, LTE) 规 


、 时 延 需 求 或 两 者 都 有 。 根 据 长 
范 ， 子 载波 间隔 和 TTI 分 别 设 
置 为 15 kHz 和 1 ms。 系 统 带宽 设置 为 20 MHz， 每 个 TITI 的 


束 时 间 不 同 。 此 外 ， 每 个 切片 
和 数据 包 大 小 都 不 同 。 切 片 的 
期 演进 


RB 总 数 为 100。! 
空 制 的 RB 数 为 25。 


于 RB 是 根据 规范 分 组 的 ， 因 此 每 个 基站 
RB 分 配 的 控制 间隔 为 1ms， 和 TTI 一 样 。 


表 4 给 出 了 Ape-X 的 参数 值 ， 和 [17] 中 的 相同 。actor 的 数 


量 是 根据 计算 机 的 性 能 设置 的 参数 。 
3700x CPU，32GB 内 存 ，rtx 2070super 显卡 。 进 4 
为 3700x CPU，16GB 内 存 。 本 文 使 用 
台 计 算 机 进行 仿真 。 在 一 台 计 算 机 上 运行 5 个 仿 


训练 电脑 的 配置 为 AMD 
J 仿真 的 电脑 
台 计 算 机 进行 学 习 ， 六 
， 而 一 个 仿 


真有 4 个 actor， 所 以 总 共有 120 个 actor(6 计算 机 x5 个 仿真 x4 
个 actor)。 折 扣 因 子 决定 了 考虑 未 来 奖励 的 折扣 因子 。 在 RB 分 


配 中 , 切片 状态 也 会 快速 变化 ， 


是 很 重要 的 。 因 此 ， 本 文 将 折扣 因子 设置 为 0.5 以 最 大 化 短期 


姑 此 根据 状态 变化 快速 分 配 RB 


奖励 。 出 于 同样 的 原因 ， 将 nn 设 为 1。 


3.3 评估 结果 
3.3.1 RB 分 配 评估 

在 本 节 中 ， 本 文 评估 所 提 
同 的 场景 中 将 RB 分 配给 切片 
5G 网 络 标准 ， 所 使 用 
500mx500m 区 域内 ， 


的 参数 汇总 在 表 3 和 5。 在 给 定 的 
四 个 基站 均匀 分 布 。 每 两 个 相 邻 的 BS 


出 的 方法 是 否 能 在 切片 数量 不 
。 所 考虑 的 移动 网 络 场景 基于 
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法 9。 资 源 


的 权重 计算 如 下 : 
] 户 的 聚合 数据 速率 


b)NVS(Network Virtualization Substrate) 方 > 
于 系统 中 切片 的 权重 来 分 配 ， 切 片 


定义 为 切片 s 中 的 所 有 


[ou 


| 
0@. =D "Rvued, 。 


ARB: = AllRB x 


请 求 。 
在 


大 | 


此 ， 


分 配给 切片 s 的 RB 计算 为 : Dp 
为 每 个 切片 提供 的 资源 量 在 基站 之 间 


NVS 方法 中 ， 


到 


满足 ， 在 160s 到 
团 片 2 对 于 


200s 之 间 


， 随 着 切片 2 的 用 
也 越 来 越 


i 
= 
局 ]， 


切片 2 获得 的 资源 
多 ， 导 致 切片 1 的 NSDS 下 降 。 在 200s 和 500s 之 间 , 切片 4 
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保持 120m 的 固定 距离 。 路 径 损耗 (Path Loss, PL) 模 型 定义 如 平均 分 配 。 本 文 所 提出 的 方法 以 及 hard 方法 采用 2.3 节 所 述 
下 : PL(dB)=20log10(d)+201log10(f)-27.55。 其 中 ，d( 以 米 为 单 的 资源 映射 方式 。 
人 ) 和 人 以 MHz 为 单位 ) 分 别 表示 用 户 -基站 的 距离 和 信道 频 
率 。 基 于 5G 切片 类 别 ， 本 文 定义 了 4 个 切片 : 消息 业务 、 Wa 
应 用 程序 、 音 频 、 视 频 ， 每 个 切片 匹配 一 种 业务 。 每 个 切片 150 
不 同 的 用 户 数量 、 数 据 包 长 度 和 切片 需求 。 通 过 设置 每 本 
个 切片 的 切片 开始 和 结束 时 间 来 模拟 切片 数量 的 变化 。 在 仿 | 
真 中 ,切片 数量 从 最 少 两 个 切片 到 最 多 四 个 切片 不 等 。 具 体 要 
的 参数 如 表 5 所 示 。 切 片 中 的 用 户 数量 随时 间 而 变 ， 如 图 5 入 75] 
所 示 。 s0 
表 2 训练 场景 -Uniform[min, max] 表 示 从 min 到 max 的 均匀 分 布 | 
Tab.2 Training scenario-Uniform[min,max], represents a uniform 
distribution from min to max "1 7 本 3 Rn RA 机 二 
参数 值 仿真 时 间 (s) 
仿真 时 间 30s 图 $ 户 数量 变化 图 
基站 数量 4 Fig. 3 Changes in the number of users 
基站 间距 离 120m 表 5 评估 场景 
最 大 用 户 数 mu 400 Tab.5 Evaluation scenario 
切片 数量 4 参数 值 
切片 的 开始 时 间 st Uniform[1,10][s] 仿真 时 间 600s 
切片 的 结束 时 间 strUniform[1,20][s] 基站 数量 4 
切片 中 的 用 户 数量 Unifomm[1.200]， 所 有 切片 的 用 户 总 数 不 超过 mu 基站 间距 离 120m 
数据 包 生 成 间隔 pi Uniform[1,1000][ms] 户 的 总 数 290 
数据 包 大 小 ps Uniform[1,65535][Bytes] 团 片 的 数量 4 
吞吐 量 需求 。 ”tcxpsx1000/pi[Bps],tc=Uniform[0.8,1], 当 tc-08 时 ， 对 知 中 最 没有 需求 团 片 编号 1 2 3 
时 延 需求 dl=Uniform[3,1000][ms], 当 d=1000 时 ， 对 和 本 妆 有 需求 有 务 类 型 消息 业务 ”应 用 程 频 视频 
表 3 训练 和 评估 的 共同 参数 户 数 量 25 200 20 45 
Tab.3 Common parameters for training and evaluation 数据 包 到 达 率 / 包 /s Uniform[80,120] 
参数 值 数据 包 大 小 /Byte 476 76 147 1055 
区 域 大 小 500x500[m?] 吞吐 量 需 求 /Mbps 元 0.07 无 ”0.82 
j 户 移动 性 随机 路 点 模型 时 延 需求 /ms 10 无 50 100 
基站 发 射 功率 46dBm 切片 开始 时 间 /s 0 0 100 200 
子 载波 间隔 15kHz 切片 结束 时 间 /s 600 600 400 500 
TII 1[ms] 6(a) 到 6(c) 显 示 了 NSDS、RBUR、ARB 和 仿真 时 间 2 
系统 带宽 20[MHz] 间 的 关系 。 这 里 ，RB 以 一 毫秒 的 间隔 分 配给 切片 , 但 NSDS 
噪声 功率 谱 密度 -174dBm/Hz 和 RBUR 是 以 一 毫秒 为 间隔 测量 的 一 秒 的 平均 值 ，ARB 是 
控制 间隔 1[mas] 1s 的 总 ARB(100x1000RB)。NSDS 的 结果 表明 ， 所 提出 的 方 
表 4 Ape-X 参数 法 几乎 完全 满足 切片 需求 。 在 所 提出 的 方法 中 ， 当 切片 的 数 
Tab. 4 Ape-X parameters 量 在 110s、205s、400s 发 生变 化 时 ，NSDS 不 会 下 降 。 基 于 
参数 值 这 些 结果 ， 即 使 切片 的 数量 发 生变 化 ， 切 片 的 性 能 需求 也 能 
Actor 数量 120 得 到 满足 。 
目标 网 络 更 新 闻 隔 2500[step] 在 hard 方法 中 ，RB ee 有 关 ， 因 此 ， 对 
网 络 参 复制 间隔 100[step] 数据 速率 需求 低 的 切片 1、3 总 是 能 够 满足 切片 需求 。 切 片 2 
训练 batch 大 小 512 中 的 用 户 数量 多 ， 在 320s 1 400s 之 间 时 ， 切 片 2 的 用 户 数 
学 习 率 0.00025/4 量 不 断 增加 , 但 是 分 配 的 RB 数量 没有 增加 , 资源 分 配 不 足 ， 
折扣 因子 y 0.5 导致 NSDS 降低 。 切 片 4 需要 高 吞吐 量 ， 在 350s 到 400s 之 
优化 算法 RMSProp 间 时 , 用 户 数 量 增加 , 对 数据 速率 的 需求 也 会 增加 , 但 是 ARB 
多 步 bootstrap 目标 n 1 不 会 变化 ，NSDS 下 降 。 
本 文中 对 比 了 两 种 方法 。 方 法 描述 如 下 所 示 。 在 图 6(c) 中 ,依据 nvs 方 法, 分 配给 切片 的 资源 和 切片 的 数据 
ajhard-slicing。hard 方法 是 一 种 将 所 有 RB 按 切 片 数量 速率 需求 有 关 。 数 据 速率 需求 越 高 ， 获 得 的 资源 就 越 多 。 因此， 从 
划分 的 方法 。 切 片 的 ARB 可 以 计算 为 :488'= 和 89% jv 。 图 (c) 中 可 以 看 出 ， 在 大 约 90s 和 160s 之 间 ， 切 片 1 的 需求 都 能 得 


户 数量 不 断 增加 ， 


也 变 
因为 


其 高 吞吐 量 需 求 ， 而 占有 了 过 多 的 资源 。 在 400s 左右 时 ， 切 片 4 
的 用 户 数量 达到 最 大 , 获得 RB 最 多 , 其 他 切片 的 NSDS 也 达到 最 
低 。 切 片 3 由 于 其 数据 速率 需求 低 而 且 用 户 数量 少 ， 因 此 获得 的 


RB 数量 少 ，NSDS 很 低 ， 无 法 满足 切片 对 于 时 延 的 需求 。 
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根据 RBUR 结果 ,所 提出 方法 的 RBUR 约 为 0.75 或 。 对 数据 速率 的 需求 低 , 导致 分 配 的 RB 不 足 , 所 分 配 的 RB 都 
更 高 。 这 表明 RB 的 过 度 分 配 低 于 25%。 在 hard 方法 中 ， 被 利用 了 ， 因 而 资源 利用 率 比较 高 。 
昌 于 将 RB 均匀 地 分 配给 切片 ， 而 不 管 切片 的 状态 和 需求 ， 综 上 所 述 ， 基 于 NSDS 和 RBUR 的 结果 ， 所 提出 的 方法 
此 RBUR 的 表现 很 差 ， 在 每 个 切片 中 都 存在 过 度 分 配 ， 如 对 比 其 他 方法 在 NSDS 和 RBUR 两 个 指标 上 表现 更 好 , 能 够 
(b) 所 示 。 对 于 nvs 方法 ,切片 2 和 切片 4 的 数据 速率 需求 。 根据 切片 的 状态 和 需求 分 配 资源 ， 分 配 了 必要 数量 的 RB 以 
高 ， 过 度 分 配 严重 ，RBUR 性 能 表现 很 差 。 切 片 1 和 切片 3 ”满足 切片 的 需求 而 且 不 受 切 片 数量 的 变化 的 影响 。 


bs 


EH 


1/ 计 | 并 


切片 1 切片 2 


| i i | 
(a) 本 文 方法 
和 ji 8 六 > 上 -| 和 。 | 
四 和 昌 ! "a 和 各 | 和 
(b)hard 
;| 三 \ | L | 了 
EN a 旺 7 a a A 日 
(cnvs 方法 
图 6 RB 分 配对 比 图 
Fig.6 RB allocation comparison chart 
3.3.2 通用 性 能 评估 的 用 户 的 需求 全 部 得 到 满足 的 概率 是 50%。 
在 本 节 中 ， 本 文 使 用 模拟 各 种 服务 的 场景 来 评估 所 提出 所 提出 的 方法 的 NSDS 在 0.0 处 以 不 到 10% 分 布 , 在 1.0 
方法 的 通用 性 能 。 作 为 包括 DRL 在 内 的 通用 机 器 学 习 ， 可 处 大 约 82% 分 布 。 结 果 表 示 切 片 中 的 一 个 用 户 无 法 满足 需求 


以 通过 仅 训练 特定 数据 来 估计 目标 数据 的 最 优 解决 方案 。 但 ”的 概率 不 到 10%， 切 片 中 的 用 户 的 需求 全 部 被 满足 的 概率 达 
是 不 能 对 其 他 未 经 训练 的 数据 进行 正确 的 估计 。 这 称 为 过 度 。 到 了 82%。 根 据 以 上 结果 ， 表 明 所 提出 的 方法 实现 了 高 水 平 
适应 环境 。 当 只 针对 特定 的 时 区 、 地 点 或 服务 时 ， 这 种 模型 ”的 通用 性 能 ， 几 乎 可 以 满足 各 种 场景 下 的 切片 需求 


是 有 效 的 。 但 是 ， 如 果 模 型 只 用 于 特定 情况 ， 则 使 用 网 络 切 8(a) 和 8(b) 显 示 了 RBUR 评估 结果 。 所 提出 的 方法 的 
片 的 优势 就 形 失 了 。 这 是 因为 在 RAN 中 ,会 有 很 多 的 服务 平均 RBUR 约 为 0.77。 对 比方 法 的 平均 RBUR 都 在 0.7 之 
类 型 ， 而 网 络 切片 是 一 种 将 网 络 适 用 于 各 种 服务 的 技术 。 下 ,资源 过 度 分 配 都 超过 了 30% 。hard 方法 的 平均 RBUR 最 


使 用 第 3.2 节 中 的 随机 生成 场景 评估 所 提出 方法 的 通用 。” 低 ， 因 为 hard 切片 将 所 有 RB 平均 分 配给 各 个 切片 。 有 的 切 
性 能 。 由 于 该 场景 随机 确定 用 户 数量 、 数 据 包 生 成 间隔 和 切片 会 存在 过 度 分 配 。nvs 方法 根据 不 同 切片 的 数据 速率 请 求 


片 需求 ， 因 此 可 以 模拟 各 种 业务 类 型 。 需 要 注意 的 是 ， 并 非 。 进行 分 配 。 但 是 可 能 有 的 切片 请 求 的 速率 比 其 他 切片 高 太 多 ， 
所 有 生成 的 场景 都 可 以 通过 现 有 服务 来 解释 。 本 文 使 用 与 训 ”导致 有 的 切片 分 配 了 过 多 资源 从 而 RBUR 很 低 。 
练 中 不 同 的 种 子 值 来 评估 未 经 训练 的 场景 ， 以 显示 模型 的 通 综 上 所 述 ， 对 于 随机 生成 的 场景 ， 所 提出 的 方法 能 够 有 
用 性 能 。 效 地 将 RB 分 配给 切片 ， 几 乎 满足 了 各 种 切片 的 需求 ， 实 现 
总 共 测试 了 3000 个 场景 .评估 指标 为 NSDS 和 RBUR， ”了 高 水 平 的 通用 性 能 ， 同 时 资源 利用 率 也 很 高 。 
是 一 秒 内 测量 值 的 平均 值 。 结 果 表 示 为 累积 分 布 函数 (CDF) 。 ” 
和 测量 数据 的 平均 值 。 如 果 NSDS 和 RBUR 较 高 , 则 表明 。 X 
它们 在 各 种 随机 生成 的 场景 中 都 较 高 。 了 120002 
图 7(a) 和 7(b) 显 示 了 NSDS 评估 结果 。 所 提出 的 方法 的 。 | 以 
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平均 NSDS 约 为 0.92， 几 乎 满足 了 切片 需求 。 对 比方 法 的 平 
均 NSDS 都 在 0.7 以 下 。 由 图 7(b) 可 以 看 出 ，hard 切片 方法 ee HE 
的 NSDS 在 没有 用 户 满足 需求 的 0.0 处 以 大 约 28% 分 布 ， 在 。 一 “ 人 


X> 


所 有 用 户 都 满足 需求 的 1.0 处 以 大 约 50% 分 布 。 结 果 表 明 ， (a) 平 均 NSDS (bjNSDS 的 CDF 曲线 
切片 中 的 一 个 用 户 有 28% 的 概率 无 法 满足 需求 。 对 于 nvs 方 图 7 NSDS 的 通用 性 能 


法 ， 切 片 中 的 一 个 用 户 有 31% 的 概率 无 法 满足 需求 ， 切 片 中 Fig.7 General performance of NSDS 
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(a) 平 均 RBUR (b)RBUR 的 CDF 曲线 
图 8 RBUR 的 通用 性 能 
Fig.8 General performance of RBUR 

3.3.3 扩展 性 评估 

本 文通 过 评估 切片 数量 与 性 能 之 间 的 关系 来 评估 所 提出 
方法 中 切片 数量 的 可 扩展 性 。 此 评估 场景 使 用 第 3.2 节 中 使 
用 的 随机 生成 场景 ， 切 片 数量 根据 每 个 场景 的 均匀 分 布 从 1 
到 8 中 选择 。 评 估 时 的 切片 数量 不 是 根据 场景 创建 时 设置 的 
切片 数量 来 计算 的 , 而 是 通过 同时 运行 的 切片 数量 来 计算 的 。 
例如 ， 如 果 切 片 数 量 设置 为 7， 但 同时 运行 的 切片 数量 为 3， 
则 计 为 3 个 切片 。 评 估 指 标 为 NSDS 和 RBUR， 测 量 结果 为 
秒 内 测量 值 的 平均 值 。 
图 9 显示 了 切片 数量 与 NSDS 的 关系 。 对 于 所 有 测试 方 
法 , NSDS 随 着 切片 数量 的 增加 而 降低 。 当 切片 数量 增加 时 ， 
需要 更 多 的 RB。NSDS 减少 是 因为 无 法 保证 切片 所 需 的 RB 
数 。 当 切片 数量 达到 4 个 及 以 上 时 ， 所 提出 方法 的 NSDS 比 
其 他 方法 高 出 了 0.2 以 上 ， 实 现 了 更 好 的 效果 。 在 切片 数量 
少 于 8 个 时 ，NSDS 为 0.8 以 上 ， 切 片 中 有 80% 以 上 的 用 户 
完全 满足 了 QoS 需求 。 当 切片 数量 为 8 时 ,NSDS 约 为 0.78。 
对 比方 法 中 , nvs 方法 表现 最 差 , 因为 一 方面 可 能 有 的 切片 
对 于 数据 速率 需求 高 ， 而 有 的 切片 对 于 数据 速率 需求 低 ， 导 致 
对 数据 速率 需求 低 的 切片 获得 的 RB 数量 过 少 , 也 就 使 得 NSDS 
很 低 ; 另 一 方面 ，nvs 方法 在 基站 之 间 均 等 分 配 资源 ， 可 能 会 使 
得 在 某 个 基站 上 分 配 过 多 资源 ， 有 的 基站 分 配 过 少 ， 导 致 用 户 
接 入 的 基站 资源 过 少 而 降低 了 需求 满意 度 。hard 方法 将 资源 均 
等 分 配给 各 个 切片 ， 当 切片 数量 增多 时 ， 每 个 切片 获得 资源 变 
少 ， 导 致 有 的 切片 分 配 资源 不 足 ， 需 求 满意 度 下 降 。 
图 10 显示 了 切片 数量 和 RBUR 之 间 的 关系 。 在 所 提出 的 
方法 中 ， 当 切片 数量 超过 4 个 时 ，RBUR 随 着 切片 数量 的 增加 
而 降低 ， 在 切片 数量 为 8 时 ，RBUR 为 0.7。RB 分 配 过 多 是 为 
了 在 分 配 RB 时 能 够 可 靠 地 满足 切片 的 需求 。 所 提出 的 方法 学 
习 了 将 NSDS 优先 于 RBUR 的 分 配方 式 ,原因 和 奖励 的 设计 有 
关 。 在 设计 奖励 时 综合 考虑 了 资源 利用 率 和 切片 需求 满意 度 。 
如 果 所 有 用 户 都 不 能 满足 需求 ， 则 NSDS 为 0， 而 如 果 有 用 户 
使 用 了 RB， 则 RBUR 就 大 于 0。 奖励 是 NSDS 乘 以 RBUR， 如 
果 其 中 一 个 变 为 0， 则 奖励 也 为 0。 在 学 习 时 ， 接 近 0 的 NSDS 
会 被 优先 考虑 以 改善 切片 的 需求 满意 度 , 导致 RB 的 过 度 分 配 。 
在 nvs 方法 和 hard 方法 中 ， 当 切片 数量 为 1 时 ，hard 方 
法 和 nvs 方法 的 RBUR 不 到 0.3， 因 为 这 两 种 方法 会 将 所 有 
的 资源 都 分 配给 这 个 切片 导致 资源 利用 率 过 低 ， 当 切片 数量 
增加 时 ， 会 有 更 多 的 切片 需要 资源 ， 也 就 使 得 切片 的 资源 利 
用 率 得 到 了 提高 。 但 是 因为 这 两 种 方法 的 局 限 性 ，RBUR 的 
表现 都 比 所 提出 的 方法 要 差 ， 过 度 分 配 严 习 
基于 NSDS 和 RBUR 的 结果 ， 即 使 切片 数量 发 生变 化 ， 
本 文 所 提出 的 方法 也 能 分 配 RB 以 满足 切片 对 于 吞吐 量 和 时 
延 的 需求 。 此 外 ， 所 提出 的 方法 仅 通过 使 用 训练 模型 创建 或 终 
止 执行 RB 分 配 的 actor 来 应 对 切片 数量 的 变化 。 综 上 所 述 ， 
可 以 说 所 提出 的 方法 在 切片 数量 方面 具有 很 高 的 可 扩展 性 。 


4 ”结束 语 
本 文 主要 研究 无 线 接 入 网 (RAN) 切 片 。 在 多 基站 环境 下 ， 
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为 了 能 够 有 效 地 分 配 无 线 资源 同时 满足 切片 的 需求 ， 本 文 提 


TTI 


出 了 一 种 使 用 Ape-X 的 RB 分 配方 法 ， 该 方法 不 受 切 片 数 量 
的 影响 。 仿 真 结果 表明 ， 所 提出 的 方法 能 够 根据 切片 的 状态 
和 需求 分 配 资源 ， 分 配 了 必要 数量 的 RB 以 满足 切片 的 需求 
而 且 不 受 切片 数量 的 变化 的 影响 ， 同 时 对 于 随机 生成 的 场景 
也 实现 了 高 水 平 的 通用 性 能 。 


所 提出 的 方法 是 基于 LTE 中 的 TTI 设计 的 ， 在 5G 中 ， 
是 可 变 的 ， 未 来 会 在 这 个 方向 上 继续 研究 。 
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图 9 NSDS 扩展 性 评估 


图 10 RBUR 扩展 性 评估 
Fig. 10 RBUR scalability evaluation 
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